生存分析中删失数据比例对Cox回归模型影响的研究

您所在的位置:网站首页 生存分析左删失 右删失 生存分析中删失数据比例对Cox回归模型影响的研究

生存分析中删失数据比例对Cox回归模型影响的研究

2024-07-09 16:07| 来源: 网络整理| 查看: 265

摘要:

目的和意义: 在生存数据研究中,Cox回归能处理不同生存时间分布的删失数据,无疑是生存分析中最常用最经典的方法。在实际应用中,删失比例很大并应用Cox回归进行生存分析的情形并不鲜见。此时,Cox估计结果的可靠性和准确性如何?Cox模型是否对删失比例没有任何限制?这些问题国内外尚无系统研究的报道。本课题旨在研究删失比例大小对Cox模型分析结果的影响,继而确定应用Cox模型进行生存分析时删失比例的限度。这一问题的解决不仅对删失数据研究具有重要影响,还将为生存分析应用领域提供一个可参考的标准,从而增强危险因素分析的可靠性,提升科学研究结论的质量。 方法: 根据Cox的偏似然算法,回归系数由事件和删失发生的秩序确定,而并非具体的生存时间取值,删失数据的信息只体现在偏似然函数的风险集中。但若删失比例很大,必然导致回归结果的偏倚。本研究将从随机模拟的角度探讨删失数据对Cox模型分析结果的影响,考察Cox回归模型在不同删失比例条件下结果的偏倚性、准确性和有效性。 一、参数设置 1.协变量个数:单因素和多因素情形,多因素情形考虑协变量个数为2、4和8。在多因素情形下,设置部分协变量为无关因素,以考察Cox模型筛选影响因素的能力。 2.生存分布:在已知的生存分布中,只有指数分布、Weibull分布、Gompertz分布满足Cox比例风险假定。分别设置生存时间的分布为以上这3种类型。 3.删失分布:考察Ⅰ型删失和Ⅲ型删失(随机删失)。Ⅰ型删失设置为截尾分布,Ⅲ型删失设置为指数分布和均匀分布。 4.协变量类型:离散型和连续型随机变量,取值分布有两点分布、正态分布、均匀分布、Gamma分布等。 5.样本量大小:以协变量个数的倍数来设置,单因素情形设置为协变量个数的20,40,80……200倍;多因素情形还考虑10倍以及500倍。以样本量和协变量个数倍数的大小来划分,可将样本大小分为3个等级: 样本量为协变量个数的20倍以下,定义为小样本; 样本量为协变量个数的20倍~100倍,定义为中等样本; 样本量为协变量个数的100倍以上,定义为大样本。 6.模拟重复次数:所有参数组合条件下重复抽样500次。 二、评价指标设置 1.偏倚性:回归系数的相对误差(MAD)和回归系数正负性改变的比率(BIAS)。不同删失比例条件下回归系数估计值的相对误差称为MAD,而回归系数估计值的正负号发生改变的比例,以评价指标BIAS标志。MAD和BIAS数值越小,偏倚就越小。 2.准确性:回归系数标准差比率(Stdratio)。不同删失比例条件下回归系数标准差的大小与完整数据下的相比,比值以评价指标Stdratio标志。Stdratio越小(越接近1),结果的准确性越高。 3.有效性:回归结果显著性比率(Propower)。以完整数据的Cox回归结果显著性为前提条件,计算不同删失比例条件下回归结果显著性所占的比例,以指标Propower标志。Propower数值越大,结果的有效性越高。 三、模拟研究过程 1.根据生存时间的分布规律构造出完整数据。 根据不同的生存分布类型,求出累积基准风险函数的反函数,设置不同的分布参数和协变量,产生相应条件下生存时间的完整数据。 2.从完整数据中根据删失数据的分布随机抽样,产生不同删失比例的若干数据集。 先根据删失分布类型和删失比例的设置,运用迭代计算,确定删失分布中参数的取值,然后生成删失时间数据。结合生存时间和删失时间,继而产生不同删失比例下含删失的生存数据集。 3.再以完整数据建立的Cox模型为金标准,从参数估计、显著性检验等方面评价不同删失比例下Cox结果的准确性和可靠性,计算不同删失情形下评价指标数值。 4.对不同删失比例条件下评价指标的变化趋势进行分析。 各项评价指标都是删失比例的单调函数,为了研究单调的特性,引入了差分的概念。一阶差分的正负性代表函数的增减性。二阶差分代表单调变化的加速度,其数值围绕0附近表示函数近似呈线性单调;偏离0越远则函数递增(递减)趋势越大。 结果: 一、结果的偏倚性。 以回归系数的相对误差(MAD)和回归系数正负性改变的比率(BIAS)指标来刻画。 1.在不同生存分布类型和协变量类型下评价指标MAD和BIAS结果类似。 2.在删失分布为Ⅰ型删失(截尾分布)情形下偏倚略小,在Ⅲ型删失各种分布类型下结果近似。 3.受回归系数大小的影响,回归系数越小,MAD数值会越大。 4.随着删失比例的增大,MAD和BIAS数值逐渐增大,在删失较大时会出现加速增大(加速偏倚)的现象。加速偏倚的位置和样本量大小有关: 小样本情形,删失比例在70%后偏倚加速增大; 中等样本情形,删失比例在80%后偏倚加速增大; 大样本情形,删失比例在90%后偏倚加速增大。 二、结果的准确性. 以回归系数标准差的比率(Stdratio)来刻画。 Stdratio的变化主要和删失比例有关:其随着删失比例的增大而不断增大,在删失比例70%时中位数数值达到1.7以上且这种增大趋势会“加速”。Stdratio的增大和加速增大的趋势不受样本量大小的影响,在各种参数条件下数值接近。 三、结果的有效性。 以回归结果显著性比率(Propower)来刻画。 Propower与协变量的标准差、样本量的大小等因素都有关,但它总是随着删失比例的增大而不断下降。 四、极端值的分布 在小样本和大删失的情形下,比较容易出现极端值的现象。取Stdratio数值大于100做为极端值来描述其分布,此时MAD最小值达到4.5,最大值超过1000,Cox回归的估计毫无意义可言。与Ⅲ型删失相比,Ⅰ型删失较少出现极端值现象。在小样本情形下,极端值的出现应引起重视。在单因素情形下,若事件数(死亡例数)小于10,极端值出现的可能性达到5%,若事件数小于6,极端值出现可能性上升到20%。 结论: 删失比例的增大会造成Cox模型分析结果的准确性、有效性下降,偏倚性增大。在删失比例超过70%后,Stdratio中位数数值超过1.7且加速增大,结果的准确性大大下降。指标Propower数值总是随着删失比例的增大而不断下降。 在小样本情形下,删失比例超过70%后,偏倚加速增大且极端值的可能出现应引起重视。中等样本情形下,删失比例超过80%后,偏倚加速增大。大样本情形下,删失比例超过90%后,偏倚加速增大。 为了提高结论的准确性和可靠性,在应用Cox模型进行生存分析时,应检查删失比例是否超过最大限度:样本量为协变量个数20倍以内,删失比例不宜超过70%;样本量为协变量个数20~100倍之间,删失比例不宜超过80%;样本量为协变量个数100倍以上,删失比例不宜超过90%。 总而言之,本研究揭示了删失比例对Cox模型结果的影响,根据课题的研究结果确定了应用Cox模型进行生存分析时删失比例的限度,为实际应用提供了参考依据。

更多


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3